Sélection par entropie de descripteurs textuels pour la catégorisation de documents XML
نویسندگان
چکیده
Dans le contexte de la catégorisation de documents, la sélection des descripteurs est une étape de pré-traitement importante qui permet non seulement de réduire la taille de l’index, mais aussi d’améliorer les performances des classifieurs. Parmi les approches utilisées pour construire un sous-ensemble de l’index, on peut distinguer d’une part, les méthodes de réduction de dimensions qui génèrent un nombre limité de nouveaux descripteurs en regroupant les descripteurs initiaux par affinité sous forme de concepts, comme par exemple la méthode LSA et, d’autre part, les méthodes de sélection de descripteurs qui visent à choisir un sousensemble des attributs initiaux à l’aide de critères tels que le critère de couverture de classe (CC) que nous avons défini dans (Gery et al. (2009)). Cependant, comme la plupart des critères de sélection de descripteurs, qu’il s’agisse de la fréquence d’apparition du terme (DF), du gain d’information (IG), du χ (CHI2) ou encore de l’information mutuelle (IM), la couverture de classe CC exploite la distribution dans les classes des documents contenant ou ne contenant pas chaque terme. Or, un terme caractéristique d’une classe devrait non seulement apparaître dans un plus grand nombre de documents de la classe que des autres classes mais il devrait aussi y figurer plus fréquemment. Dans cet article 1, pour tenir compte, non seulement de la distribution entre les classes des documents contenant un terme, mais aussi de son nombre d’occurrences, nous proposons une extension du critère de couverture de classe (CC), appelée Entropy based Category Coverage Difference (CCDE), qui intègre l’entropie du terme. Evalué sur une large collection de documents XML extraits de l’encyclopédie Wikipédia, ce critère fournit de meilleurs résultats que des techniques classiques de sélection d’attributs basées sur la fréquence des documents contenant le terme, comme le gain d’information, l’information mutuelle ou le χ et ses dérivés.
منابع مشابه
DocCat: un composant logiciel de catégorisation de documents et de marquage sémantique XML
Résumé : Cet article présente DocCat un composant logiciel de catégorisation de documents. Cet outil permet de générer des balises sémantiques et de les stocker dans une base de données au format XML. DocCat intègre une méthode d’apprentissage supervisée pour classer des documents texte dans des catégories prédéfinies. Les catégories ainsi induites permettent le balisage du document. L’intérêt ...
متن کاملClassification Automatique Non supervisée de Documents Textuels basés sur Wordnet
Mettre en œuvre l’une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document dj sera transfo...
متن کاملUn outil de détection automatique de thèmes
Vu la quantité de documents numériques disponible sur le Web et la nécessité de mettre au point des techniques de recherche efficaces, les systèmes de recherche d'information font de plus en plus appel aux techniques de Traitement Automatique des Langues (TAL) qui exploitent les informations syntaxiques ou sémantiques, dans le but d’améliorer la qualité des résultats fournis par les moteurs de ...
متن کاملRELIEFS : Un système pour le filtrage adaptatif de documents textuels basé sur la notion de résonance
Résumé : Nous présentons le système RELIEFS pour RELevance Information Extraction Fuzzy System dédié au filtrage adaptatif de documents textuels. Ce système s'inspire très largement de mécanismes cognitifs intervenant dans les processus de sélection d'information. En particulier, il implémente l'idée de résonance introduite dans la théorie cognitive ART [GROS 76] qui rend compte de la façon don...
متن کاملLa Classification non Supervisée (Clustering) de Documents Textuels par les Automates Cellulaires
Résumé : Dans cet article nous présentons un automate cellulaire (Class_AC) pour résoudre un problème de text mining en l’occurrence la classification non supervisée (Clustering). Avant de procéder à l’expérimentation par l’automate cellulaire, nous avons vectorisés nos données en procédant à l’indexation des documents textuels provenant de la base de donnée REUTERS 21578 par l’approche Wordnet...
متن کامل